医疗保健是人类生活中最重要的方面之一。众所周知,心脏病是最致命的疾病之一,这些疾病是阻碍了世界各地许多人的生命。必须提前检测心脏病,因此可以防止丧生生命。用于医学诊断的大规模数据的可用性有助于开发复杂的机器学习和基于深度学习的模型,用于自动化早期诊断心脏病。古典方法在没有概括到训练集中没有看到的新数据的概括。这在训练和测试精度方面的差距是巨大的差距。本文提出了一种新的深度学习架构,使用1D卷积神经网络进行健康和非健康人员之间的分类,以克服古典方法的局限性。各种临床参数用于评估有助于早期诊断的患者的风险概况。使用各种技术来避免在所提出的网络中过度装备。该网络在数据集中实现了超过97%的训练精度和96%的测试准确性。使用各种性能参数的其他分类算法详细比较了模型的准确性,这些算法证明了所提出的架构的有效性。
translated by 谷歌翻译
Memes are powerful means for effective communication on social media. Their effortless amalgamation of viral visuals and compelling messages can have far-reaching implications with proper marketing. Previous research on memes has primarily focused on characterizing their affective spectrum and detecting whether the meme's message insinuates any intended harm, such as hate, offense, racism, etc. However, memes often use abstraction, which can be elusive. Here, we introduce a novel task - EXCLAIM, generating explanations for visual semantic role labeling in memes. To this end, we curate ExHVV, a novel dataset that offers natural language explanations of connotative roles for three types of entities - heroes, villains, and victims, encompassing 4,680 entities present in 3K memes. We also benchmark ExHVV with several strong unimodal and multimodal baselines. Moreover, we posit LUMEN, a novel multimodal, multi-task learning framework that endeavors to address EXCLAIM optimally by jointly learning to predict the correct semantic roles and correspondingly to generate suitable natural language explanations. LUMEN distinctly outperforms the best baseline across 18 standard natural language generation evaluation metrics. Our systematic evaluation and analyses demonstrate that characteristic multimodal cues required for adjudicating semantic roles are also helpful for generating suitable explanations.
translated by 谷歌翻译
现有的自我监督学习策略被限制在有限的目标或主要针对单峰应用程序的通用下游任务。对于复杂性和域亲和力(例如模因分析)而言,这对命令性的多模式应用有了孤立的进展。在这里,我们介绍了两种自我监督的预训练方法,即ext-pie-net和mm-simclr(i)在预训练期间使用现成的多模式仇恨语音数据,并且(ii)执行自我 - 通过合并多个专业借口任务,有效地迎合模因分析所需的复杂多模式表示学习,从而有效地迎合了学习。我们实验不同的自我实验策略,包括可以帮助学习丰富的跨模式表示并使用流行的线性探测来评估可恨模因任务的潜在变体。拟议的解决方案通过标签有效的培训与完全监督的基线竞争,同时在梅诺特挑战的所有三个任务上明显优于他们,分别为0.18%,23.64%和0.93%的绩效增长。此外,我们通过在Harmeme任务上报告竞争性能来证明所提出的解决方案的普遍性。最后,我们通过分析特定于任务的学习,使用更少的标记培训样本来建立学习表现的质量,并争辩说,自主策略和手头下游任务的复杂性是相关的。我们的努力强调了更好的多模式自学方法的要求,涉及有效的微调和可推广性能的专业借口任务。
translated by 谷歌翻译
在安全至关重要的应用中,深度神经网络的使用越来越多,就需要训练有素的模型。当前大多数校准技术解决了分类问题,同时着重于改善对内域预测的校准。在许多决策系统中占据相似的空间和重要性的视觉对象探测器的校准几乎没有关注。在本文中,我们研究了当前对象检测模型的校准,尤其是在域移位下。为此,我们首先引入了插件的火车时间校准损失以进行对象检测。它可以用作辅助损失函数,以改善检测器的校准。其次,我们设计了一种新的不确定性量化机制来进行对象检测,该机制可以隐式校准常用的基于自我训练的域自适应检测器。我们在研究中包括单阶段和两阶段对象探测器。我们证明,我们的损失改善了具有明显边缘的内域和室外检测的校准。最后,我们展示了我们技术在校准不同域移动方案中的域自适应对象探测器方面的实用性。
translated by 谷歌翻译
视觉变压器正在成为解决计算机视觉问题的强大工具。最近的技术还证明了超出图像域之外的变压器来解决许多与视频相关的任务的功效。其中,由于其广泛的应用,人类的行动识别是从研究界受到特别关注。本文提供了对动作识别的视觉变压器技术的首次全面调查。我们朝着这个方向分析并总结了现有文献和新兴文献,同时突出了适应变形金刚以进行动作识别的流行趋势。由于其专业应用,我们将这些方法统称为``动作变压器''。我们的文献综述根据其架构,方式和预期目标为动作变压器提供了适当的分类法。在动作变压器的背景下,我们探讨了编码时空数据,降低维度降低,框架贴片和时空立方体构造以及各种表示方法的技术。我们还研究了变压器层中时空注意的优化,以处理更长的序列,通常通过减少单个注意操作中的令牌数量。此外,我们还研究了不同的网络学习策略,例如自我监督和零局学习,以及它们对基于变压器的行动识别的相关损失。这项调查还总结了在具有动作变压器重要基准的评估度量评分方面取得的进步。最后,它提供了有关该研究方向的挑战,前景和未来途径的讨论。
translated by 谷歌翻译
当前,根据CNN处理的视频数据,主要执行动作识别。我们研究CNN的表示过程是否也可以通过将基于图像的动作音频表示为任务中的多模式动作识别。为此,我们提出了多模式的音频图像和视频动作识别器(MAIVAR),这是一个基于CNN的音频图像到视频融合模型,以视频和音频方式来实现卓越的动作识别性能。Maivar提取音频的有意义的图像表示,并将其与视频表示形式融合在一起,以获得更好的性能,与大规模动作识别数据集中的两种模式相比。
translated by 谷歌翻译
Covid-19影响了世界各地,尽管对爆发的错误信息的传播速度比病毒更快。错误的信息通过在线社交网络(OSN)传播,通常会误导人们遵循正确的医疗实践。特别是,OSN机器人一直是传播虚假信息和发起网络宣传的主要来源。现有工作忽略了机器人的存在,这些机器人在传播中充当催化剂,并专注于“帖子中共享的文章”而不是帖子(文本)内容中的假新闻检测。大多数关于错误信息检测的工作都使用手动标记的数据集,这些数据集很难扩展以构建其预测模型。在这项研究中,我们通过在Twitter数据集上使用经过验证的事实检查的陈述来标记数据来克服这一数据稀缺性挑战。此外,我们将文本功能与用户级功能(例如关注者计数和朋友计数)和推文级功能(例如Tweet中的提及,主题标签和URL)结合起来,以充当检测错误信息的其他指标。此外,我们分析了推文中机器人的存在,并表明机器人随着时间的流逝改变了其行为,并且在错误信息中最活跃。我们收集了1022万个Covid-19相关推文,并使用我们的注释模型来构建一个广泛的原始地面真实数据集以进行分类。我们利用各种机器学习模型来准确检测错误信息,我们的最佳分类模型达到了精度(82%),召回(96%)和假阳性率(3.58%)。此外,我们的机器人分析表明,机器人约为错误信息推文的10%。我们的方法可以实质性地暴露于虚假信息,从而改善了通过社交媒体平台传播的信息的可信度。
translated by 谷歌翻译
工程方法集中在传统的分解和重构概念上,这些概念依赖于分区组件的输入和输出,以允许组成后的组件级属性。但是,在人工智能(AI)中,通常期望系统会影响其环境,并通过环境影响自己。因此,目前尚不清楚AI系统的输入是否将独立于其输出,因此,是否可以将AI系统视为传统组件。本文认为,工程通用智能需要新的通用系统戒律,称为核心和外围,并探索其理论用途。使用抽象系统理论和必要品种定律详细阐述了新的戒律。通过使用呈现的材料,工程师可以更好地理解调节AI结果以满足利益相关者需求的总体特征,以及实施方案的一般系统性质如何挑战传统工程实践。
translated by 谷歌翻译
有效的点云压缩对于虚拟和混合现实,自动驾驶和文化遗产等应用至关重要。在本文中,我们为动态点云几何压缩提出了一个基于深度学习的框架间编码方案。我们提出了一种有损的几何压缩方案,该方案通过使用新的预测网络,使用先前的框架来预测当前帧的潜在表示。我们提出的网络利用稀疏的卷积使用层次多尺度3D功能学习来使用上一个帧编码当前帧。我们在目标坐标上采用卷积来将上一个帧的潜在表示为当前帧的降采样坐标,以预测当前帧的特征嵌入。我们的框架通过使用学习的概率分解熵模型来压缩预测功能的残差和实际特征。在接收器中,解码器层次结构通过逐步重新嵌入功能嵌入来重建当前框架。我们将我们的模型与基于最先进的视频点云压缩(V-PCC)和基于几何的点云压缩(G-PCC)方案进行了比较,该方案由Moving Picture Experts Group(MPEG)标准化。我们的方法实现了91%以上的BD率Bjontegaard三角洲率)降低了G-PCC,针对V-PCC框架内编码模式的BD率降低了62%以上,而对于V-PC。使用HEVC,基于PCC P框架的框架间编码模式。
translated by 谷歌翻译
对比自我监督学习(CSL)已设法匹配或超过图像和视频分类中监督学习的表现。但是,仍然未知两个学习范式引起的表示的性质是否相似。我们在对抗性鲁棒性的角度下对此进行了研究。我们对该问题的分析治疗揭示了CSL对监督学习的内在更高灵敏度。它将数据表示形式在CSL表示空间中的单位过球上的统一分布是这种现象的关键因素。我们确定这会增加模型对输入扰动的敏感性,而在培训数据中存在假阴性的情况下。我们的发现得到了对对抗性扰动和其他输入损坏的图像和视频分类的广泛实验的支持。在洞察力的基础上,我们制定了简单但有效地通过CSL培训改善模型鲁棒性的策略。我们证明,对抗攻击的CSL及其受监督的对手之间的性能差距最高可下降68%。最后,我们通过将我们的发现纳入对抗性的自我监督学习中,为强大的CSL范式做出了贡献。我们证明,在该域中的两种不同的最新方法中,平均增益约为5%。
translated by 谷歌翻译